查看原文
其他

论文推荐|[ECCV2020] 端到端OCR文本重排的序列学习方法及富文本图像理解应用

汪嘉鹏 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ECCV2020 论文“An End-to-End OCR Text Re-organization Sequence Learning for Rich-text Detail Image Comprehension”的主要工作。本文提出了一种新颖的端到端的对图中多个OCR文本块进行重排序的网络模型,以获得一个符合正常阅读逻辑结构的序列化输出。

 
一、研究背景

文本是人类交流的重要工具,对如商品详情介绍图片中的文本进行理解是一项需求日益增加的应用。传统的光学字符识别(OCR)技术致力于从图像中挖掘文本信息,主要包含文本检测和识别过程。它们提取图像中的字符并根据语义信息将其组织成几个文本块。然而,这些文本块通常有着灵活的布局。他们是离散的,缺乏上下文顺序,没有图像结构。因此,当一些文本自动阅读器直接按从左到右、从上到下的顺序阅读文本块时,其结果往往是错误的,会令人无法理解。本文提出了一种新颖的端到端的对图中多个OCR文本块进行重排序的网络模型以解决上述问题。具体而言,该方法先将多个文本块建模为图结构,使用包含注意力机制的图卷积网络得到全局的图特征表示;接着使用一个基于指针网络的序列解码器,迭代的输出重排序的结果;最后引入了Sinkhorn层进行全局的约束和优化。在真实数据上的实验结果表明,该方法在局部和全局序列评估结果中均优于其他方法。对视力障碍者的真实的用户体验测试也表明该方法具有显著的优越性。


二、原理简述

图1 图的构建过程与图卷积编码器框架图

图1是图的构建过程与图卷积编码器框架图。该方法将全卷积网络(FCN)[1]模型应用于文本区域的检测,然后提取其主干部分的特征图,并利用在文本检测时预先训练的参数得到特征映射。结合文本框,采用双线性插值技术得到文本块内特征作为节点属性。对于边缘属性,该方法考虑几何信息,即利用文本块的位置坐标。它应用类似[2]中启发式的相对位置和形态方法来表示边缘属性:

接着,该方法采用双层的包含注意力机制的图卷积网络,计算得到最终的节点特征和边缘特征。然后进一步通过平均池化层从节点特征中得到全局的图特征表示,并通过全连接层进行块间链接的预测,以得到文本块间的关系特征。


图2 基于指针网络的解码器框架图

图2是基于指针网络的解码器框架图。由于在这个任务中并没有输出词汇表,输出序列中的每个元素都是来自输入中的某个元素。因此,该方法应用了一个基于指针网络的解码器,它在每个时间步都会指向输入中的某个元素,作为当前时间步的输出。解码器在每个时间步考虑的信息包括三个:来自编码器的图特征表示、关系特征和上一时间步输出的节点特征。在第一步时,该方法将使用一个特殊的<start>标签作为输入占位符:

在每个时间步,网络会筛除已经被预测输出过的节点,且解码器将选择具有最大概率的节点作为当前的输出。

因为每个文本块都具有指向下一个文本块的唯一链接,所以可以将注意力矩阵转换为双随机矩阵,其中每个行和列的总和为1。在Sinkhorn理论中,任何非负方阵都可以通过迭代的将行或列进行归一化运算而转换为双随机矩阵。其中行和列的归一化操作如下:

则第n次迭代的Sinkhorn归一化操作SH通过以下规则递归:

该方法会在每个时间步添加Sinkhorn归一化,以获得输出文本块的全局最佳概率矩阵。

 
三、主要实验结果及可视化效果

主要实验结果及可视化如表1、2和图3、4所示。另外,视力障碍者的真实用户体验测试也表明,本文方法具有约超过70%的准确性。


Table 1 Total order accuracy on test data


Table 2 The BLEU scores on test data



图3 可视化结果1


图4 可视化结果2 

四、总结及讨论

本文重点讨论OCR文本块重排序问题。该方法提出了一种端到端的重组序列学习结构,借助预训练的FCN文本检测网络,提取图像特征并将其与几何特征合并以构建图结构。然后使用具有自注意机制的图卷积编码器以获得图嵌入。最后,将具有Sinkhorn层的基于指针网络的注意力解码器应用于预测序列输出。该方法在总体评估和局部评估方面均优于其他方法,并且将有助于人们更详细、更准确地理解图像内容,尤其是对于视力障碍者而言。 


五、相关资源
  • 论文地址:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123700086.pdf


参考文献
[1] Long, J.,Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE conference on computer vision andpattern recognition. pp. 34313440 (2015)
[2]Liu X, Gao F, Zhang Q, et al. Graph Convolution for Multimodal Information Extraction from Visually Rich Documents[C] //Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Industry Papers). 2019:32-39.


原文作者:Liangcheng Li, Feiyu Gao, Jiajun Bu, Yongpan Wang, Zhi Yu and Qi Zheng

 

撰稿:汪嘉鹏
编排:高 学

审校:连宙辉

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)

征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




(扫描识别如上二维码加关注)





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存